IA012

Approfondimento sui grandi modelli linguistici

Agenti autonomi, RLHF e allineamento della sicurezza

Lezione

Lezione 8

Insegnante

Tutor AI

Analizzare i componenti architetturali degli agenti GUI, inclusi i moduli di pianificazione, decisione e riflessione nei sistemi multi-agente.
Spiegare i meccanismi dell'Apprendimento per rinforzo (RL) e del RLHF, in particolare il ruolo dei modelli di ricompensa e di PPO nell'allineare il comportamento dell'agente ai valori umani.
Valutare i rischi per la sicurezza e le problematiche di affidabilità negli agenti autonomi, inclusi gli errori Out-of-Distribution (OOD), attacchi di bypass e distrazioni ambientali.